3.7 Model Selection via k-fold Cross-Validation
the key idea is to keep an independent test dataset, that we withhold from during training and model selection, to avoid the leaking of test data in the training stage.
「鍵となるアイデアはテストセットを独立して保持しておくこと」
「(テストセットを)訓練の間とモデル選択から別にしておく」
「訓練ステージでテストデータがリークするのを避けるため」
📝訓練とテストは峻別している印象
k交差検証を使ったモデル選択の手順(Figure 16)
1. データセットを訓練とテストの2つに分ける
2. さまざまなハイパーパラメタ設定を実験する
ベイズ最適化、ランダムサーチ、グリッドサーチなど
For each hyperparameter configuration, we apply the k-fold cross-validation method on the training set, resulting in multiple models and performance estimates.
「各ハイパーパラメタ設定についてk交差検証を訓練セットに適用し、複数のモデルと汎化性能の見積もりを得る」
図を見るとモデルはなくてもよくて汎化性能がわかっていればよさそう
3. 最もよい結果のハイパーパラメタ設定を採用し、訓練セット全てでモデルを訓練する
4. 手順3で作ったモデルをテストセットで評価する
5. オプショナルだが、訓練セットとテストセットを合わせた全データで訓練
いわゆるデプロイ用モデル